6.1 מבוא מידע מתקבל מידע משודר בערוץ מיועד להעברה. compression encoding. decoding uncompress

Σχετικά έγγραφα
פתרון תרגיל מרחבים וקטורים. x = s t ולכן. ur uur נסמן, ur uur לכן U הוא. ur uur. ur uur

חורף תש''ע פתרון בחינה סופית מועד א'

ל הזכויות שמורות לדפנה וסטרייך

פתרון תרגיל 5 מבוא ללוגיקה ותורת הקבוצות, סתיו תשע"ד

לדוגמה: במפורט: x C. ,a,7 ו- 13. כלומר בקיצור

פתרון תרגיל 8. מרחבים וקטורים פרישה, תלות \ אי-תלות לינארית, בסיס ומימד ... ( ) ( ) ( ) = L. uuruuruur. { v,v,v ( ) ( ) ( ) ( )

= 2. + sin(240 ) = = 3 ( tan(α) = 5 2 = sin(α) = sin(α) = 5. os(α) = + c ot(α) = π)) sin( 60 ) sin( 60 ) sin(

תרגיל 13 משפטי רול ולגראנז הערות

1 תוחלת מותנה. c ארזים 3 במאי G מדיד לפי Y.1 E (X1 A ) = E (Y 1 A )

לוגיקה ותורת הקבוצות פתרון תרגיל בית 8 חורף תשע"ו ( ) ... חלק ראשון: שאלות שאינן להגשה נפריד למקרים:

Logic and Set Theory for Comp. Sci.

צעד ראשון להצטיינות מבוא: קבוצות מיוחדות של מספרים ממשיים

שדות תזכורת: פולינום ממעלה 2 או 3 מעל שדה הוא פריק אם ורק אם יש לו שורש בשדה. שקיימים 5 מספרים שלמים שונים , ראשוני. שעבורם

{ : Halts on every input}

( )( ) ( ) f : B C היא פונקציה חח"ע ועל מכיוון שהיא מוגדרת ע"י. מכיוון ש f היא פונקציהאז )) 2 ( ( = ) ( ( )) היא פונקציה חח"ע אז ועל פי הגדרת

מתמטיקה בדידה תרגול מס' 5

[ ] Observability, Controllability תרגול 6. ( t) t t קונטרולבילית H למימדים!!) והאובז' דוגמא: x. נשתמש בעובדה ש ) SS rank( S) = rank( עבור מטריצה m

סיכום בנושא של דיפרנציאביליות ונגזרות כיווניות

אלגברה ליניארית (1) - תרגיל 6

יסודות לוגיקה ותורת הקבוצות למערכות מידע (סמסטר ב 2012)

x a x n D f (iii) x n a ,Cauchy

סדרות - תרגילים הכנה לבגרות 5 יח"ל

משוואות רקורסיביות רקורסיה זו משוואה או אי שוויון אשר מתארת פונקציה בעזרת ערכי הפונקציה על ארגומנטים קטנים. למשל: יונתן יניב, דוד וייץ

דף פתרונות 7 נושא: תחשיב הפסוקים: צורה דיסיונקטיבית נורמלית, מערכת קשרים שלמה, עקביות

לוגיקה ותורת הקבוצות פתרון תרגיל בית 4 אביב תשע"ו (2016)

מבוא לתורת הקודים לתיקון שגיאות

c ארזים 15 במרץ 2017

גבול ורציפות של פונקציה סקלרית שאלות נוספות

סיכום- בעיות מינימוםמקסימום - שאלון 806

I. גבולות. x 0. מתקיים L < ε. lim אם ורק אם. ( x) = 1. lim = 1. lim. x x ( ) הפונקציה נגזרות Δ 0. x Δx

תרגול מס' 6 פתרון מערכת משוואות ליניארית

brookal/logic.html לוגיקה מתמטית תרגיל אלון ברוק

תרגול פעולות מומצאות 3

אלגברה לינארית (1) - פתרון תרגיל 11

תרגול 1 חזרה טורי פורייה והתמרות אינטגרליות חורף תשע"ב זהויות טריגונומטריות

לוגיקה ותורת הקבוצות מבחן סופי אביב תשע"ב (2012) דפי עזר

( k) ( ) = ( ) ( ) ( ) ( ) A Ω P( B) P A B P A P B תכונות: A ו- B ב"ת, אזי: A, B ב "ת. בינומי: (ההסתברות לk הצלחות מתוך n ניסויים) n.

תורת הקבוצות תרגיל בית 2 פתרונות

אינפי - 1 תרגול בינואר 2012

תשובות מלאות לבחינת הבגרות במתמטיקה מועד ג' תשע"ד, מיום 0/8/0610 שאלונים: 315, מוצע על ידי בית הספר לבגרות ולפסיכומטרי של אבירם פלדמן

סיכום חקירת משוואות מהמעלה הראשונה ומהמעלה השנייה פרק זה הינו חלק מסיכום כולל לשאלון 005 שנכתב על-ידי מאיר בכור

טענה חשובה : העתקה לינארית הינה חד חד ערכית האפס ב- הוא הוקטור היחיד שמועתק לוקטור אפס של. נקבל מחד חד הערכיות כי בהכרח.

{ } { } { A חוקי דה-מורגן: הגדרה הסתברות מותנית P P P. נוסחת בייס ) :(Bayes P P נוסחת ההסתברות הכוללת:

ניהול תמיכה מערכות שלבים: DFfactor=a-1 DFt=an-1 DFeror=a(n-1) (סכום _ הנתונים ( (מספר _ חזרות ( (מספר _ רמות ( (סכום _ ריבועי _ כל _ הנתונים (

אוטומט סופי דטרמיניסטי מוגדר ע"י החמישייה:

מודלים חישוביים תרגולמס 5

c ארזים 26 בינואר משפט ברנסייד פתירה. Cl (z) = G / Cent (z) = q b r 2 הצגות ממשיות V = V 0 R C אזי מקבלים הצגה מרוכבת G GL R (V 0 ) GL C (V )

מתכנס בהחלט אם n n=1 a. k=m. k=m a k n n שקטן מאפסילון. אם קח, ניקח את ה- N שאנחנו. sin 2n מתכנס משום ש- n=1 n. ( 1) n 1

רשימת משפטים והגדרות

gcd 24,15 = 3 3 =

הרצאה. α α פלוני, וכדומה. הזוויות α ל- β שווה ל-

שאלה 1 V AB פתרון AB 30 R3 20 R

3-9 - a < x < a, a < x < a

מינימיזציה של DFA מינימיזציה של הקנוני שאותה ראינו בסעיף הקודם. בנוסף, נוכיח את יחידות האוטומט המינימלי בכך שנראה שכל אוטומט על ידי שינוי שמות

פתרון תרגיל 6 ממשוואות למבנים אלגברה למדעי ההוראה.

לוגיקה ותורת הקבוצות מבחן סופי אביב תשע"ד (2014) דפי עזר

מתמטיקה בדידה תרגול מס' 13

Charles Augustin COULOMB ( ) קולון חוק = K F E המרחק סטט-קולון.

התפלגות χ: Analyze. Non parametric test

co ארזים 3 במרץ 2016

תרגיל 7 פונקציות טריגונומטריות הערות

הסקה סטטיסטית/תקציר/תלמה לויתן

אוטומטים- תרגול 8 שפות חסרות הקשר

הגדרה: מצבים k -בני-הפרדה

פתרונות , כך שאי השוויון המבוקש הוא ברור מאליו ולכן גם קודמו תקף ובכך מוכחת המונוטוניות העולה של הסדרה הנתונה.

פתרון תרגיל בית 6 מבוא לתורת החבורות סמסטר א תשע ז

רשימת משפטים וטענות נכתב על ידי יהונתן רגב רשימת משפטים וטענות

תורת ההסתברות 1 יובל קפלן סיכום הרצאות פרופ יורי קיפר בקורס "תורת ההסתברות 1" (80420) באוניברסיטה העברית,

- הסקה סטטיסטית - מושגים

קבוצה היא שם כללי לתיאור אוסף כלשהו של איברים.

השאלות..h(k) = k mod m

חידה לחימום. כתבו תכappleית מחשב, המקבלת כקלט את M ו- N, מחליטה האם ברצוappleה להיות השחקן הפותח או השחקן השappleי, ותשחק כך שהיא תappleצח תמיד.

. {e M: x e} מתקיים = 1 x X Y

תרגול מס' 1 3 בנובמבר 2012

אוסף שאלות מס. 3 פתרונות

תורת ההסתברות 2: (או הסתברות ותהליכים סטוכסטים)

קיום ויחידות פתרונות למשוואות דיפרנציאליות

אלגברה מודרנית פתרון שיעורי בית 6

מבני נתונים ואלגוריתמים תרגול #11

(2) מיונים השאלות. .0 left right n 1. void Sort(int A[], int left, int right) { int p;

מתמטיקה בדידה תרגול מס' 2

תרגילים באמצעות Q. תרגיל 2 CD,BF,AE הם גבהים במשולש .ABC הקטעים. ABC D נמצאת על המעגל בין A ל- C כך ש-. AD BF ABC FME

חשבון אינפיניטסימלי 1

אלגברה לינארית 1 יובל קפלן

תורת הקבוצות יובל קפלן סיכום הרצאות פרופ ארז לפיד בקורס "תורת הקבוצות" (80200) באוניברסיטה העברית,

תרגול משפט הדיברגנץ. D תחום חסום וסגור בעל שפה חלקה למדי D, ותהי F פו' וקטורית :F, R n R n אזי: נוסחת גרין I: הוכחה: F = u v כאשר u פו' סקלרית:

s ק"מ קמ"ש מ - A A מ - מ - 5 p vp v=

TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY DEPARTMENT OF COMPUTER SCIENCE סמסטר אביב תשס"ו מס' סטודנט:

ביטויים רגולריים הפקולטה למדעי המחשב אוטומטים ושפות פורמליות (236353) הרצאה 5


"קשר-חם" : לקידום שיפור וריענון החינוך המתמטי

TECHNION Israel Institute of Technology, Faculty of Mechanical Engineering מבוא לבקרה (034040) גליון תרגילי בית מס 5 ציור 1: דיאגרמת הבלוקים

פרק 8: עצים. .(Tree) במשפטים הגדרה: גרף ללא מעגלים נקרא יער. דוגמה 8.1: תרגילים: הקודקודים 2 ו- 6 בדוגמה הוא ).

5.1.1 מבוא. .(process X X רציף). n n 1 0.5

מבני נתונים ויעילות אלגוריתמים

The No Arbitrage Theorem for Factor Models ג'רמי שיף - המחלקה למתמטיקה, אוניברסיטת בר-אילן

פולינומים אורתוגונליים

תאריך עדכון אחרון: 27 בפברואר ניתוח לשיעורין analysis) (amortized הוא טכניקה לניתוח זמן ריצה לסדרת פעולות, אשר מאפשר קבלת

אלגוריתמים ללכסון מטריצות ואופרטורים

הרצאה תרגילים סמינר תורת המספרים, סמסטר אביב פרופ' יעקב ורשבסקי

Transcript:

9 פרק וו' תורת האינפורמציה 6. מבוא 6.. תורת האינפורמציה תורת האינפורמציה שהבסיס לה פותח כמעט בלעדית על ידי שנון ) Shao,.C 949), תופסת בשנים האחרונות מקום מרכזי בניתוח של הקידוד והייצוג העצבי. התורה פותחה במקור על מנת לטפל בהעברת אינפורמציה במערכות תקשורת, אך כמעט מיד (למשל, (Mller, 953 הופיעו שימושים שלה לתיאור מערכות סנסוריות כמערכות המעבירות ומטפלות באינפורמציה. בפרק זה נסקור את שני המרכיבים הבסיסיים של תורת האינפורמציה קידוד מקור ו- קידוד ערוץ עבור משתנים מקריים בדידים. 6.. מודל למערכות העברת אינפורמציה המסגרת בה אנחנו עובדים היא הצורך להעביר באופן יעיל ככל האפשר מידע דיגיטלי נתון דרך ערוץ רועש ומשבש. שנון הראה כיצד ניתן לפרק את תהליך העברת המידע לשני שלבים נפרדים: בשלב הראשון נדחוס את האינפורמציה על ידי כך שננצל את התלויות הסטטיסטיות שבה ונקודד אותה בקצרה (קידוד מקור). בשלב השני, לצורך העברת המידע ללא שיבושים בערוץ הרועש, נוסיף למידע המועבר אינפורמציה יתירה, שתאפשר למקבל המידע בצדו השני של הערוץ הרועש לנקות את הרעשים (קידוד ערוץ). באופן ציורי, נוכל לתאר את מבנה מערכת העברת המידע באופן הבא מידע מתקבל בצדו השני של הערוץ מידע משודר בערוץ מידע גולמי מיועד להעברה compresso ecodg decodg ucompress

30 שנון הציג חסמים תיאורטיים על יעילות שני השלבים האלו, ובמשך השנים פותחו אלגוריתמים יעילים המתקרבים או משיגים חסמים אלו. הפרק הנוכחי מורכב משלושה סעיפים עיקריים: ראשית נתאר את המרכיבים הבסיסיים של תורת האינפורמציה, ואז נשתמש בהם לתיאור קידוד מקור וקידוד ערוץ עבור משתנים מקריים בדידים. 6. מושגים בסיסיים: אנטרופיה ואינפורמציה 6.. אנטרופיה הגדרה האנטרופיה של משתנה מקרי בדיד X בעל פונקציה התפלגות p(x) מוגדרת כ- (6.) H( X) = px log[ px ] x כאשר מקובל להשתמש בבסיס הטבעי של הלוגריתם (אז תמדד האנטרופיה ביחידות הנקראות (ats או בבסיס אז תמדד האנטרופיה בביטים (bts). דוגמא יהי X משתנה מקרי המקבל בהסתברות p ואפס אחרת. אזי האנטרופיה שלו היא p)]. H( X) = [ plog( p) + ( p)log( במקרה בו p=/ ובסיס הלוג ה או, נקבל H( X) = / log (/ ) / (log (/ ) = = log (/ ) = bt אנטרופיה כמדד לאי ודאות האנטרופיה נחשבת מדד לאי הודאות על קבוצת המצבים האפשריים {x}. נשים לב כי בניגוד למדדי פיזור בהם עסקנו עד כה, כגון השונות של משתנה מקרי, האנטרופיה אינה תלויה כלל בערכים שהמשתנה מקבל אלא בפונקצית ההתפלגות שלו בלבד. נראה כעת כי האנטרופיה של משתנה מקרי בדיד מקבלת ערך מינימלי כאשר אי הוודאות מינימלית (יש רק ערך אפשרי אחד), וערך מקסימלי כאשר כל הערכים מתקבלים בהסתברויות שוות (אי ודאות מקסימלית).

3 האנטרופיה מקבלת ערכים חיוביים בלבד (היות וכל איבר בסכום הוא לוג של מספר קטן מאחד). קל לראות כי היא מקבלת ערך אפס כאשר קיים אחד בלבד p = 0 x). lm xlog( על מנת למצוא את x 0 שאיננו אפס, היות ומגדירים משיקולי רציפות הערך המקסימלי שהאנטרופיה יכולה לקבל עבור משתנה מקרי בדיד המקבל ערכים, נרשום את הלגרנג'יאן J = plog( p) λ p = = נגזור ביחס להסתברות של הערך x ונשווה לאפס J p ( p ) = log + λ = 0 ונקבל כי p = exp( λ ) for all. p ומכיוון ש- λ הוא קבוע, המקסימום מתקבל בהתפלגות האחידה / = בהתפלגות זו האנטרופיה שווה ל- (6.) H( X) = p log( p ) =+ log = log = = ניתן לראות את האנטרופיה של התפלגות כלשהי כמדד למרחק הסטטיסטי בין התפלגות נתונה לבין ההתפלגות האחידה p( x) = p( x) D P log m {} x / m = p( x) log p( x) p( x) log {} x {} x m = H p + log m [ ]

3 דוגמא תא עצב מגיב לגירויים ראייתיים בירי של מספר פוטנציאלי פעולה, על פי ההתפלגות הבאה הסתברות ההופעה 0.3 0.5 0.5 0.04 0.0 מספר פ"פ 0 3 4 האנטרופיה של התפלגות מספר פוטנציאלי הפעול בתגובה לגירוי היא H X = 0.3log 0.3 0.5log 0.5 0.5log 0.5 0.04log 0.04 0.0log 0.0 =.6838 bts p( x, y) הגדרה: אנטרופיה משותפת האנטרופיה של זוג משתנים מקריים, מוגדרת על ידי X ו- Y בעלי התפלגות משותפת (6.3) {} x { y} H ( XY, ) = pxy, log pxy, = Ep( x, y) log p XY, הגדרה: אנטרופיה מותנית האנטרופיה המותנית etropy) (codtoal תסומן H(Y X) והיא מוגדרת כ- (6.4) {} x {} x {} x { y} H( Y X) = p x H Y X = x = ( ) log ( ) = p x p y x p y x = = { y} (, ) log p( y x) p x y log, ( ) = E p Y X pxy

33 משפט: כלל השרשרת לאנטרופיה: H(X)+H(Y X) H(X,Y) = כלל זה מבטא את האדיטיביות של האנטרופיה, כלומר את היכולת שלנו לצבור אינפורמציה על ההתפלגות המשותפת, מידיעת האנטרופיה המותנית של כל אחד מהמשתנים. (6.5) (, ) = (, ) log (, ) H X Y p x y p x y {} x { y} {} x { y} {} x {} x { y} {} x { y} ( ) log p( y x) p( x) = p y x p x = = ( ) log [ p( x) ] p y x p x ( ) log [ p( y x) ] log [ p( x) ] p x {} x { y} p y x p x = H( X) + H( Y X) (, ) log [ p( y x) ] p x y הוכחה על ידי הפעלה חוזרת של כלל השרשרת ניתן להרחיב אותו ל- משתנים H X, X,..., X = H X X,..., X (6.6) = מסקנה: אנטרופיה של משתנים בלתי תלויים (,..., ). H X X = H X = כאשר המשתנים בלתי תלויים אז (6.7) מסקנה: אנטרופיה של תהליך מרקובי מסדר k (,... X ) H X = ( )... (,... ) (,... ) = H X + H X X + H X X X + H X X X k k k+ = k+

34 6.. אינפורמציה משותפת הגדרה: אנטרופיה יחסית האנטרופיה היחסית etropy) (relatve בין שתי התפלגויות, p(x) ו- q(x) היא שם אחר למרחק הסטטיסטי בין התפלגויות בו עסקנו בפרק. (6.8) [ ] p x p x D p q = p x log = Ep log {} x q x q x הגדרה: אינפורמציה משותפת האינפורמציה המשותפת formato) (mutual בין שני משתנים מקריים X ו- Y, הינה p(y) ו- והתפלגויות שוליות p(x),x )p (y בעלי צפיפות משותפת: בין ההתפלגות המשותפת ומכפלת (המרחק הסטטיסטי) האנטרופיה היחסית ההתפלגויות השוליות (6.9) I( X ; Y ) = D = [ p( x, y) p( x) p( y) ] x y p( x, y) p( x, y) log p( x) p( y) טענה: I(X;Y)=H(X)-H(X Y) (6.0) ( ; ) = (, ) p( x, y) = p( x, y) log {} x { y} p( x) p( y) p( x y) = p( x, y) log { xy, } p( x) = p( x, y) log p( x) + p( x, y) log p( x y) I X Y D p x y p x p y { xy, } { xy, } H( X Y) = H X הוכחה האינפורמציה המשותפת בין X ו- Y מבטאת את המידה שבה קטנה אי-הודאות בדבר ערכו של המשתנה X עקב הידיעה של המשתנה Y. נשים לב כי זהו מדד סימטרי ולכן מתקיים גם.I(X;Y)=H(Y)-H(Y X)

35 דוגמא האיור הבא מראה פעילות של תא במערכת השמיעה של חתול, בתגובה להשמעת גירויים אקוסטיים. חמישה גירויים כאלו מוצגים לדוגמה בעמודה שמשמאל. כל אחד מהגירויים הוצג 0 פעם, והתגובות מוצגות כאיור שבו כל נקודה מסמנת פוטנציאל פעולה (עמודה שניה משמאל). חזרות אלו מאפשרות לאמוד את ההתפלגות של סטטיסטים שונים של שרשרת הספייקים. לדוגמא, התפלגות מספר הספייקים מוצגת בתגובה לחמשת הגירויים בעמודה השלישית משמאל. ניתן לחשב התפלגות זו עבור כל אחד מהגירויים שהוצגו (חמשה עשר בסך הכל). המטריצה המתקבלת היא אומד להתפלגות המשותפת של גירוי אל מול מספר פוטנציאלי פעולה. האינפורמציה המשותפת בהתפלגות שיצרה את המטריצה הזו היא חסם תחתון לאינפורמציה שמספק התא על הזהות של הגירוי שהוצג. Number of spkes of a sgle cell איור וניתוח הנתונים מתוך.Chechk 003 פירוט הניסוי ב-.Bar Yosef et al 003 דוגמא כשבוחנים את התפלגות מספר פוטנציאלי הפעולה של תא העצב מהדוגמא שבסעיף הקודם מגלים כי ההתפלגויות שונות מגירוי לגירוי סך הכל 0.30 0.50 0.5 0.04 0.0.00 בגירוי 0.30 0.5 0.05 0 0 0.50 בגירוי 0 0.35 0.0 0.04 0.0 0.50 מספר פ"פ 0 3 4 סך הכל כדי לחשב את כמות האינפורמציה שמספר פוטנציאלי הפעולה נסמן ב- X את מספר הספיקים וב- Y את הגירוי, ונרשום מספק על הגירוי,

36 H( X) =.6838 H( X Y) = p( y ) H( X Y = y ) = = 0.5[0.6log (0.6) + 0.3log (0.3) + 0.log (0.)] 0.5[0.7 log (0.7) + 0.log (0.) + 0.08log (0.08) + 0.0log (0.0)] =.6 bts I( X; Y) = H( X) H( X Y) = 0.46 bts כלל השרשרת לאינפורמציה משותפת X,..., X האינפורמציה המשותפת בין משתנה מקרי באופן טבעי Y לאוסף משתנים מוגדרת (6.) I( X, X,..., X ; Y) = H( X, X,..., X ) H( X, X,..., X Y) תחת הגדרה זו מתקיים כלל השרשרת הבא עבור האינפורמציה המשותפת (6.) I( X, X,..., X ; Y) I( X ; Y) I( X ; Y X, X,..., X ) = + = הוכחה מתוך כלל השרשרת לאנטרופיה נובע (,,..., ; ) = (,,..., ) (,,..., ) I X X X Y H X X X H X X X Y (,..., ) (,...,, ) = H X X X H X X X Y = = = = ( ;,,..., ) I X Y X X X ערך אינפורמטיבי של מאורע בודד נניח כי נתונים לנו שני משתנים מקריים X ו- Y וההתפלגות המשותפת שלהם y. הוא Y ובצענו ניסוי יחיד בו קיבלנו כי ערכו של המשתנה המקרי, P ( X, Y ) האינפורמציה שהניסוי הבודד מספק לנו על X תהיה (6.3) I ( X ; y) = H ( X ) H ( X y).

37 כלומר, האינפורמציה תהיה ההפרש בין האנטרופיה של X לפני שידענו כי,Y=y לאנטרופיה של X בהינתן הערך של y (לסקירה השוואתית של מדדים לאינפורמציה מתצפית בודדת ראה.(DeWeese ad Mester 999 I X; Y = D[ p( x, y) p( x) p( y)] ( ; ) = + (, ) I X Y H X H Y H X Y סיכום נסכם את התכונות היסודיות של האינפורמציה המשותפת I X; Y = H X H( X Y) = H( Y) H( Y X) = I( Y; X) I( X; X) = H( X) I X, X,..., X ; Y = I X ; Y X, X,..., X = 6..3 סדרה אופיינית חוק המספרים הגדולים קובע כי עבור משתנים מקריים שמתפלגים..d. הממוצע x קרוב לתוחלת של x, עבור גדול. המשפט האנלוגי בתורת = האינפורמציה הוא,(Asymptotc Equpartto Property) AEP והוא קובע כי,..., x { הם בלתי x} קרוב לאנטרופיה כאשר log p( x, x,..., x הגודל ). העברת { x x },..., p x,..., H ( X ) (6.4) { x x },..., ( ) p( x x ),..., תלויים, ו- אגפים תתן לנו הוא ההסתברות לראות את הסדרה x תוצאה זו מאפשרת לנו לחלק את אוסף הסדרות האפשריות באורך לשתי קבוצות: קבוצה של סדרות אופייניות sets) (typcal שתסומן Aε שבהן האנטרופיה של הסדרה קרובה לאנטרופיה האמיתית עד כדי ε, וקבוצת הסדרות הלא אופייניות. ובאופן יותר פורמלי, ההסתברות לקבל סדרה שההסתברות שלה H מקיימת X קרובה ל- H ( ( X) + ε) H ( ( X) ε) Pr( Aε ) = Pr ({ x,..., x} p( x,..., x) ) > ε

log,..., 38 משפט AEP (שנון-מקמילן): X,..., X אם הם..d. אז מתקיימת התכנסות בהסתברות p x x H x הוכחה הפעלת פונקציה על סדרת משתנים מקריים בלתי תלויים נותנת אף היא משתנים מקריים בלתי תלויים ולכן log p( X,... X) = log p( X) סדרת = ( ) E log p X probablty = H X { x x x },,..., (6.5) הגדרה: קבוצה אופיינית set) (typcal p(x) A ε הקבוצה האופיינית המקיימות ביחס ל- היא קבוצת הסדרות H ( ( X) + ε ) H ( ( X) ε ) p( x x ),..., A ε { x x x },,..., משפט: תכונות סדרה אופיינית סדרה אם היא אופיינית אז H( X) ε log ( p( x,..., x )) H( X) + ε p A ε r ( ε ) { ε } for suffcetly large ( + ) H X ε ( ) H X ε A ε A ε מספר האיברים ב- מספר האיברים ב- קטן מ- גדול מ- () () (3) (4) למרות פשטות ההוכחה נדלג עליה כאן (ניתן למצוא אותה למשל בפרק 3 ב- (Cover ad Thomas ונדגיש כי משמעות המשפט היא כי למרות שכמות הסדרות A ε היא כמעט A ε אינה בהכרח גדולה, הרי שההסתברות לפגוש סדרה ב- ב- אחת.

39 6..4 עיבוד ואיבוד ואינפורמציה טיפול במידע כולל העברה שלו ממקום למקום (למשל העברת אינפורמציה מאיברי החושים אל מערכת העצבים המרכזית, העברת קבצים ממחשב למחשב, העברת קול בטלפון וכדומה), ועיבוד של המידע, כלומר מיצוי של החלקים החשובים או הרלוונטים של האינפורמציה. שני תהליכים אלו גורמים בדרך כלל לאיבוד אינפורמציה: העברת אינפורמציה דרך מערכת פיסיקאלית כלשהי גורמת להוספה של "רעש" לאינפורמציה שנשלחה, ועיבוד אינפורמציה (כלומר ביצוע של פונקציה כלשהי על האינפורמציה הראשונית) גורם לסינון של חלק ("לא חשוב" אם העיבוד הוא טוב) מהאינפורמציה הראשונית. פורמלית, נייצג את תהליך ההעברה או העיבוד על ידי שרשרת מרקובית (6.6) X Y Z. דוגמא נניח ש- X הוא משתנה מקרי המתאר את כמות הפוטונים הפוגעים ברצפטור יחיד ברשתית בפרק זמן נתון, ו- Y הוא כמות הטרנסמיטור שהרצפטור מפריש בתגובה לגירוי האור. לדוגמא, Z הוא מספר פוטנציאלי הפעולה שתא גנגליון ברשתית יורה כתגובה לאותו הגירוי. הפעילות העצבית של הרצפטור Y מספקת אינפורמציה על העולם החיצון,I(X;Y) אינפורמציה זו עוברת עיבוד כך שהפעילות העצבית בתא הגנגליון מספקת גם היא אינפורמציה על העולם החיצון אך זוהי אינפורמציה שונה.I(X;Z) ומתקיים הקשר המרקובי. X Y Z המשפט הבא קובע קשר בין שני מדדי אינפורמציה אלו. הגדרה אינפורמציה משותפת מותנית האינפורמציה המשותפת המותנית של X ו- Z בהינתן Y (6.7) ( ; ) = ( ) (, ) = D p( X, Z Y) p( X Y) p( Z Y) I X Z Y H X Y H X Z Y = האינפורמציה המשותפת המותנית מבטאת את צמצום אי-הודאות ב- X הנובע מידיעת Z כאשר Y נתון. מתוך העובדה ש- = 0 q D p אם ורק אם [ ] = q( x) p x כמעט בכל מקום נובע כי (6.8) I( X; Z Y) = 0 p( X, Z Y) = p( X Y) p( Z Y) (,, ) = p( x) p( y x) p( z x, y) P x y z מההגדרה של התפלגות מותנית

40 נזכיר כי הסדרה X Y Z היא מרקובית מסדר ראשון אם מתקיים (,, ) = p( x) p( y x) p( z y) P x y z משפט: אי-שויון עיבוד האינפורמציה אם X Y Z מהווים שרשרת מרקובית מסדר ראשון, אז I X; Y I X; Z (6.9) הוכחה: מכלל השרשרת נובע כי אנו יכולים לפתח את האינפורמציה המשותפת בשתי דרכים ( ;, ) = ( ; ) + ( ; ) = I( X; Y) + I( X; Z Y) I X Y Z I X Z I X Y Z,Y ו- Z X מאחר ו בלתי תלויים בהנתן נקבל כי I( X; Z Y ) = 0 ( ; ) I( X; Z) I X Y ומאחר ו- I( X; Y Z) 0 נובע ושוויון מתקיים אם ורק אם I( X; Y Z ) = 0 כלומר אם: X Z Y מהווים גם- כן שרשרת מרקובית מסדר ראשון. באופן דומה ניתן להראות כי X;. I Z; Y I בפרט נובע מאי שוויון האינפורמציה כי אם Z = gy אז Z. ( ; ) I( X; g( Y) ) I X Y דוגמא כדי להבין את המשמעות של אי שויון זה לגבי עיבוד מידע במוח, נחזור לדוגמא ממערכת הראיה. נסמן ב- X את התפלגות הקלטים על הרשתית, ב- Y את התפלגות התגובות של תאי הרצפטורים ברשתית, וב- Z את התפלגות התגובות של תאי הגנגליון ברשתית. נניח שתגובת תאי הגנגליון תלויה אך ורק בפעילות תאי הרצפטור ברשתית ונקבל את הרשרת המרקובית. X Y Z מתוך אי שייון עיבוד האינפורמציה נובע כי תאי הגנגליון מספקים פחות אינפורמציה על הגירויים. ירידה זו בכמות האינפורמציה תלך ותחמיר ככל שנוסיף עוד ועוד שכבות עיבוד (תלמוס, קורטקס...). לכאורה כל רמת עיבוד כזו מזיקה היות והיא גוררת הפסד של אינפומרציה על הגירוי. האבחנה הקריטית כאן היא שמטרת תהליך העיבוד המוחי איננה לשמור אינפורמציה על הקלט הגולמי שהתקבל ברשתית, אלא דווקא לזרוק אינפורמציה לא חשובה בו, ולהשאיר רק את המבנים הסטטיסטיים

4 החשובים מבחינה התנהגותית. כך מתאפשר לנו למשל לזהות את אותו הפרצוף מזויות שונות בהבעות שונות ובתנאי תאורה שונים. S(X ) f θ ( x) טענה: סטטיסטים מספיקים ואינפורמציה בהינתן מדגם X מתוך התפלגות פרמטרית עבור θ אם ורק אם הסטטיסטי מספיק (6.0) I( θ; X) = I( θ; S( X) ) הוכחה כיוון ראשון: נניח כי S(X) הוא סטטיסטי מספיק ונוכיח שוויון האינפורמציות. א. ראשית נשים לב כי לכל פונקציה של X, ובפרט ל- S(X) מתקיים הקשר. I( θ; X ) I( θ; S( המרקובי ) S(X, θ X ולכן בהכרח )) X ב. בנוסף לכך עבור סטטיסטי מספיק מתקיים על פי ההגדרה כי S(, p( θ X, כלומר θ בלתי תלוי ב- X בהינתן,S(X) ולכן X )) = p( θ S( X )) S(. θ כתוצאה מהקשר המרקובי מתקיים גם קשר מרקובי נוסף X ) X. I( θ; S( X )) I( θ; הזה מתקיים ) X ג. מצירוף שני אי השוויונים לעיל מתקבל שוויון האינפורמציות. כיוון שני: נניח שוויון האינפורמציות ונוכיח כי S(X) הוא סטטיסטי מספיק. א. ראשית נשים לב כי היות והתניה מפחיתה אנטרופיה, מתקיים לכל שלושה A ושוויון מתקיים אם ורק אם H ( A B) H ( A B, משתנים A,B,C כי (C אינו תלוי ב- C בהינתן B. (נעיר כי אם C פונקציה של B אז השוויון מתקיים מיידית) ב. נביט על הפרש האינפורמציות I( θ; X ) I( θ; S( X )) = H ( θ) H ( θ X ) H ( θ) + H ( θ S( X )) = H ( θ X ) + H ( θ S( X )) = H ( θ X, S( X )) + H ( θ S( X )) = H ( θ S( X )) H ( θ S( X ), X ) ג. על פי א. הפרש זה מתאפס אם ורק אם θ בלתי תלוי ב- X בהינתן.S(X)

4 6.3 קידוד מקור לאחר שביססנו את המושגים היסודיים בתורת האינפורמציה נעבור לתאר את החלק הראשון בתאוריה של שנון, העוסק בקידוד אינפורמציה וייצוגה באופן קומפקטי. 6.3. קידוד (למשל סדרת ערכים של נטפל בתרחיש המוכר בו נתונה לנו סדרת סימנים משתנה מקרי שהוגרלו באופן בלתי תלוי, או רצף אותיות וסימני פיסוק המהווה קידוד של הסדרה הוא תהליך בו ממפים את סימני הסדרה שיר באנגלית). המטרות העיקריות של קידוד הן דחיסת לסימנים ורצפי סימנים אחרים. אינפורמציה (לצורך הקטנת המקום הנדרש לאחסון או הקטנת משאבי התקשורת ותרגום הצפנה, Codes),(Error Correcto חסינות מפני רעשים הנדרשים), האינפורמציה ל"שפה המובנת לצרכן האינפורמציה" כגון שפת מחשב ) computer בפרק הנוכחי נדון בשני במוח. מסויימים או לקוד עצבי המובן לאזורים (code בסימונים של בפרק זה בחרנו להשתמש הנושאים הראשונים בלבד..(Cover,99) הגדרות: קידוד מקור קידוד מקור של משתנה מקרי X הוא מיפוי כל אחד מהערכים *. x C( x) אלפא-בית Σ בן d סימנים Σ x למחרוזת מתוך הגדרה: קוד לא סינגולרי קוד נקרא לא סינגולרי אם אין סימן קוד ב- בשפה d שמתאימים לו שני סימנים שונים x x C x C x j j הגדרה: הרחבה של קוד הרחבה של קוד מתבצעת על ידי שרשור של מילות קוד (,..., ) =,..., C X X C x C x C x הגדרה קוד נקרא ניתן לפענוח יחיד decodable) (uquely סינגולרית. אם ההרחבה שלו אינה

43 הגדרה: קוד רגעי, קוד רישא קוד רגעי (stataeous) או קוד רישא code) (prefx הוא קוד שבו אף מילת קוד אינה תחילית של אף מילת קוד אחרת. במקרה זה ניתן להציג את הקוד בצורת עץ 0 0 0 0 0 000 00 0 קוד רגעי ניתן לפיסוק (segmetato) תוך מעבר אחד על סדרת מילות הקוד. את ההירארכיה של סוגי קידוד ניתן לתאר בדיאגרמה הבאה קודים רגעיים ניתנים לפענוח יחיד קודים לא סינגולריים כל הקודים

44 נסכם את סוגי הקודים בדוגמא דוגמא X A B C D סינגולרי 0 0 קוד רגעי (קוד רישא) פענוח יחיד אך לא רגעי לא סינגולרי אך לא ניתן לפענוח יחיד 0 0 0 0 00 0 0 0 0 6.3. דחיסת אינפורמציה באמצעות קידוד על מנת לדחוס אינפורמציה נשאף לקודד את המקור באופן כזה שמחרוזות שכיחות תהינה קצרות, ומחרוזות נדירות ארוכות. תהליך דומה קורה באופן טבעי בשפות טבעיות: מילים שכיחות הן בדרך כלל קצרות יותר (למשל, ברוב השפות "כן" ו"לא" הן מילים בנות הברה אחת). במקומות בהם השפה דינמית (כמו למשל בצבא) תהליך זה קורה באופן שוטף כך שנוצרים ר"ת, קיצורים וכד'. עבור סימן x ששכיחותו p(x p=( והוא מקודד ל- ) C(x נסמן את אורך מילת הקוד שלו ב-. l(x )=l האורך הממוצע של הקוד C יהיה x), LC = pxl ( והקידוד היעיל x ביותר לדחיסת אינפורמציה יהיה הקידוד שעבורו L(C) הוא מינימלי. יחס הדחיסה יהיה היחס בין האורך הממוצע של מילות הקוד במקור לבין האורך הממוצע של המילים המקודדות. יחס זה יבטא גם את היחס בין גודל הקובץ לפני הדחיסה לבין גודל הקובץ אחריה. משפט: אי-שוויון Kraft-MacMlla לכל קוד רישא על אלפא-בית בן d סימנים, אורכי מלות הקוד l(x) מקיימים (6.) l( x) d {} x הוכחה קוד רישא מעל אלפא-בית בן d סימנים ניתן לתיאור באמצעות עץ d- נארי. (כלומר עץ שבו לכל קודקוד יש לכל היותר d בנים). כל ענף בעץ מציין סימן-קוד וכל עלה בעץ מייצג את מילת הקוד הנוצרת על ידי סימני-הקוד לאורך הנתיב שבין השורש לעלה. נסמן את העומק המקסימאלי של העץ ב- m. ונספור את כמות הקודקודים בעץ המתאר את הקוד. בעץ המלא בעומק m יש כמובן d m קדקדים, אך בעץ המתאר את הקוד עשויים להיות עלים שאינם בעומק מלא. כדי להשלים את עץ

45, l הקוד לעץ מלא יש להשלים לכל עלה שאינו בעומק d m-l עלים. m אלא עומק תת-עץ שבו (6.) (6.3) {} x d m l( x) l( x) d {} x d. m היות וסך הקודקודים בעץ הוא לכל היותר d m אז מתקיים ומכאן נובע כנדרש כי ניתן להוכיח גם טענה משלימה: בהנתן אורכים של מלות קוד ) l(x ),,l(x המקיימים את אי שוויון קראפט, נוכל לבנות עץ המתאר את הקוד באופן הבא. סדר את האורכים בסדר עולה. כעת מצא את הקודקוד הראשון בעץ (בסדר לקסיקוגרפי) שאורכו l, ומחק את תת העץ שלו. המשך כך עבור האורכים הבאים. משיקולים של ספירת כמות הקודקודים שאותם מנצלים ניתן לראות כי אכן העץ שיבנה יהיה עץ חוקי. אורכי מלות הקוד של קוד אופטימלי ראינו כי כדי לבנות קוד רישא, אורכי מילותיו צריכות לקיים את אי-שוויון קראפט. נרצה לכן למצוא אורכים העומדים בדרישה זו, ומביאים למינימום את האורך. LC = pl זוהי בעיית אופטימיזציה סטנדרטית, וכדי הממוצע של הקוד l חייב להיות שלם, נניח שוויון באי-שוויון לפתור אותה נתעלם כרגע מהעובדה ש קראפט ונכתוב מחדש כבעיית מינימיזציה המשתמשת בכופלי לגרנג' l (6.4) J = pl + λ d נגזור ביחס ל- l, J = l p λ d log( d) l נשווה לאפס ונקבל (6.5) d l p = λ log( d) נציב שויון זה באילוץ (קראפט) ונקבל כי הערך של λ הוא,/log(d) נציב אותו ונקבל כי האורכים (הלא שלמים) של קוד אופטימלי מקיימים (6.6) l* = log d( p) לו ניתן היה לבנות קוד שהיה משתמש באורכים כאלו, אז האורך הממוצע של הקוד האופטימלי היה

(6.7) L*( C) = pl* = p log ( p ) = H ( X) D D 46 שהיא האנטרופיה של המשתנה המקרי שאותו אנחנו מקודדים. בפועל, היות ועלינו להגביל את אורכי מלות הקוד לערכים שלמים, הרי שלא תמיד נוכל להשיג ערך זה. כדי לראות מתי ניתן להשיג את האנטרופיה נוכיח כעת באופן ישיר כי אורך הקוד הממוצע גדול או שווה לאנטרופיה של המקור. משפט אורך הקוד הממוצע L(C) גדול או שווה מהאנטרופיה של המקור (X) H d d. (6.8) LC = pl H ( X) (6.9) LC H X = pl plog d d p l d l q =, c = d c l = p log ( d ) + p log p d d l L( C) H ( X) = p log d + p log ( p ) d d d p c = plogd l d c p = plogd logd q = D p q log c 0 [ ] d ( c) הוכחה נסמן ונקבל ואי השוויון האחרון נובע מחיוביות האנטרופיה היחסית (המרחק הסטטיסטי ראה פרק ) ואי שוויון קראפט על פיו c. מכאן ששוויון יתקיים רק אם יש שוויון באי שוויון קראפט וגם המרחק הסטטיסטי מתאפס, שאז {} x l x d D[ p q] = 0 p( x) = q( x) = = d l( x) d l x (6.30) l( x) = log d. p x וקיבלנו שוב כי אורכי המילים צריכים לקיים

47 כאמור, מאחר ומילים כוללות מספר שלם של סימני-קוד אין בדרך כלל אפשרות לקודד את המילים באופן שארכן יהיה שווה בדיוק ללוג של שכיחותן. אולם תמיד ניתן לקודד מילים כך שיתקיים (6.3) log log d l x d + p x p x אם נמצע אי-שוויון זה על פי השכיחות של המילים (x, )p נקבל (6.3) H ( x) L C H ( x) d + d דהיינו אורך מילת הקוד הממוצעת חסום בין האנטרופיה ל- "אנטרופיה + ". כאשר האנטרופיה קטנה, חסם זה יכול להיות גרוע, ונרצה לכן לבנות קוד בו האורך הממוצע של מילת קוד שואף ממש לאנטרופיה. 6.3.3 משפט קידוד המקור של שנון משפט הקידוד הראשון של שנון קובע כי ניתן תמיד להתקרב אסימפטוטית לקידוד. LC = Hd הרעיון הבסיסי של ההוכחה הינו קידוד של "בלוקים" שבו x) ( הכוללים סימני מקור. כלומר, אנו מפסקים את המקור באופן כזה שכל מילת x,..., X = ( x, ונבנה קוד כך ש מקור הינה רצף של סימני מקור: ) x logd l ( X ) logd + p X p X ואם אנו ממצעים את המשוואה אנו מקבלים, עבור גדול מספיק, על-פי משפט ה- AEP (ראה סעיף 6..3) (6.33) d d H x l X H x + = l מקיים: Hd x l Hd x + (6.34) l( X והאורך הממוצע (עבור סימן מקור) ) כלומר: האורך הממוצע (עבור סימן מקור x) ישאף לאנטרופיה. H d ( x) דחיסה מקסימלית של אינפורמציה מתבצעת כאשר אנו "משתמשים בכל התלות הסטטיסטית". לאחר שגמרנו להשתמש בה, הסדרה המקודדת תראה אקראית לחלוטין כיון שמיצינו את כל התלוי תו הסטטיסטיות שקיימיות בסדרה. פעולה זו נקראת לעתים "הלבנה של הערוץ".

48 מה קורה אם אנו מקדדים מקור שהתפלגותו היא p(x) כאילו היה בעל התפלגות אחרת q(x)? אם בצענו קידוד אופטימלי לפי q(x) ההפרש בין l לאנטרופיה יהיה (6.35) l H = p x p x log {} x q( x) p( x) p( x) logd {} x q( x) D [ p q] 0 log {} x p( x) d d d = = d

49 6.4 העברת אינפורמציה בערוץ רועש כל תהליך של העברת אינפורמציה בין שתי נקודות חשוף לרעשים: העברת אינפורמציה מנקודה לנקודה היא תהליך פיסיקלי, ותהליכים פיסיקלים אחרים שמתרחשים באותו זמן מתווספים אל האות המועבר כרעש לוואי: למשל רעשים אלקטרומגנטיים יכולים להופיע כשלג על מסך הטלויזיה, פעילות ספונטנית של נוירונים יוצרת רעש המתווסף לאות המועבר מהחושים לקליפת המוח וכדומה. אנו נהנים היום מתקשורת כמעט חסינה לרעשים (בעיקר בתקשורת דיגיטלית, כמו בקשר בין מחשבים), ואיננו מרגישים, בדרך כלל, את הרעש הנובע מפעילות ספונטנית של נוירונים. עובדה זו נובעת מכך שניתן להעביר אינפורמציה באופן שיהיה חסין לרעשים גם בסביבה רועשת. החסינות לרעשים נוצרת על ידי הוספת אינפורמציה "יתירה" ( Redudat ) שתאפשר אחר כך שחזור של ההודעה המקורית למרות ה"רעשים" שנלוו אליה. השפה הטבעית, שנועדה בעיקר להעברת אינפורמציה,התפתחה כך שקיימת בה יתירות של כ- 50%. עובדה זו מאפשרת לנו לשחזר טקסט שנכתב באופן בלתי קריא, להשלים את המילה החסרה בסופו של, לקרוא עברית בלי ניקוד, לפתור תשבצים וכו'. הוספת האינפורמציה היתירה מאיטה את קצב העברת האינפורמציה. על מנת להביא לאופטימום את קצב ההעברה עלינו להתאים את כמות האינפורמציה היתירה לרעש. לשם כך נגדיר מדדים כמותיים. 6.4. קיבולת של ערוץ Chael Capacty x j נתאר ערוץ רועש במודל הסתברותי. מצידו האחד של הערוץ אנו שולחים מילה או אות כלשהן, ובצידו השני של הערוץ מתקבלת המילה או האות, בסיכוי y j Y osy chael X ( j xj ) P y ( Y ) Y Y X X,...,,..., P X אנו מגדירים את קיבולת האינפורמציה של הערוץ capacty) (chael באופן הבא (6.36) p( x) C = max I X; Y

50 q= p דוגמא: ערוץ בינארי סימטרי ערוץ שבו בסיכוי p מועבר ביט רועש ובסיכוי מעבירים את הביט הנכון X Y. p0, p0, p ואז לפי ההגדרה -p 0 0 p -p נגדיר = 0 X p00 P Y = 0 נרשום ובאופן דומה עבור ( ; ) = ( ) H ( Y) p( x) H ( Y X x) I X Y H Y H Y X = = { x= 0,} Pr( log 0 log 0 ) Pr( x = 0) ( p0 log p0 p00 log p00 ) Pr ( log log ) Pr( x= 0) ( plog p qlog q) ([ ]) Pr Pr( 0) ([ ]) = H Y x= p p p p = H Y x= q q p p = H Y H p x= + x= = H Y H p H ([ p]) p כאשר אנו מסמנים ב- ([p ])H הסתברות p. את האנטרופיה בבסיס של משתנה ברנולי עם

5 כעת עלינו למצוא את ההתפלגות p(x) והמקסימום מתקבל כאשר שעבורה יתקבל מקסימום בביטוי לעיל, כלומר גם H( Y) = p( y = log ) p( y = ) p( y = 0log ) p( y = 0) = כאשר = ) y=. p( y= 0) = p( מכך שהערוץ סימטרי נובע כי = ) x=, p( x= 0) = p( ולכן (6.38) C = H ([ p] ) = plog p ( p) log ( p) אם 0=p או =p אז =C ואם 0.5=p אז 0=C (ואז אנחנו לא יכולים להעביר שום אינפורמציה - תמיד בסיכוי ½ נקבל, ובסיכוי ½ נקבל 0). 6.4. ערוץ רועש וקוד לתיקון שגיאות הגדרה: ערוץ רועש חסר זיכרון ערוץ רועש חסר זכרון הוא ערוץ המקיים (6.39) ( ) = ( ) = PY X P y x,...,x X = x, היא מילת מקור המורכבת מ- סימני מקור. כאשר x Y = y, y,..., y היא המילה המתקבלת בקצה הערוץ כאשר נשלחה המילה. X אנו נגביל את הדיון לערוצים רועשים חסרי זיכרון. כאמור, על מנת לאפשר גילוי ותיקון שגיאות עלינו להוסיף אינפורמציה יתרה. במערכת העצבים יתירות מבוטאת לעתים על ידי שיגור מספר גדול של פוטנציאלי-פעולה והעברת אותה אינפורמציה במספר ערוצים במקביל. בתקשורת הדיגיטלית אנו מוסיפים ביטים המאפשרים תיקון השגיאות. דוגמא מוכרת היא המנגנון של Check" "Party לכל שביעיית ביטים מוסיפים ביט נוסף כך שמספר ה" " םי- בשמינייה שנוצרה יהיה תמיד זוגי. אם בצדו השני של הערוץ מתקבל מספר אי זוגי של ביטים אז יודעים שנפלה טעות ויכולים לבקש שישלחו לנו שוב את השמיניה. קוד כזה מאפשר גילוי שגיאה, אך לא ניתן להסיק מתוך השמיניה שהתקבלה איזה מהביטים הוא הביט המשובש. עקרונית, ככל שרמת הרעש בערוץ גדולה יותר - נצטרך להוסיף יותר ביטים שאינם מעבירים אינפורמציה אלא משמשים רק לתיקון השגיאות. אם המספר הכולל של ביטים לשניה (BPS) שניתן להעביר בערוץ הוא חסום (כפי שבד"כ המצב) אזי הקצב האפקטיבי של העברת האינפורמציה יורד.

5 (שלוש פעמים? פעמים שלוש ביט כל על דוגמא נשתמש בקידוד שבו חוזרים פעמים!), ומחליטים מה היה הביט המקורי על פי הצבעת רוב שלוש 0,000, 0,00, 0 אז הורדנו את קצב האינפורמציה בערוץ פי שלוש: שבערוץ שקט היה מספיק להעביר שלושה ביטים. העברנו תשעה ביטים בעוד הגדרה: הקצב של קוד אם יש לנו קוד שמכיל M מילים שכל אחת מהן היא בת ביטים אז הקצב (Rate) של הקוד יהיה log M (6.40) R = דוגמא בקוד הקודם שהגדרנו יש רק שתי "מילים": 000 (אם הביט המועבר הוא "0") ו- (אם הביט המועבר הוא "") ולכן: 3=, =M ו- log (6.4) R = = 3 3 6.4.3 קודי המינג Hammg Codes על מנת להבטיח שנדע להבחין בין מילות הקוד השונות לאחר שעברו שיבושים - נרצה שמילות הקוד תהיינה מספיק שונות זו מזו, כך שגם אם ישתבשו כמה ביטים נדע עדיין לאיזו מבין המילים האפשריות התכוון השולח, לפי מילת הקוד הדומה ביותר למילה שנשלחה. נגדיר מרחק בין שתי מילים בינאריות על ידי מספר הביטים השונים בין שתי המלים, מרחק זה נקרא מרחק. Hammg עבור ערוץ בינארי סימטרי בעל הסתברות p לשיבוש ביט יהיו בממוצע p ביטים משובשים. כשמקודדים בלוקים גדולים ( גדול) התפלגות מספר הביטים המשובשים חדה סביב p (עד כדי + p ( ולכן אם נוודא שהמרחק המינימלי בין כל שתי מילות קוד יהיה גדול יותר מp (α, p + α הוא "מקדם בטחון") נוכל להבטיח כי בסבירות גבוהה כרצוננו נוכל להבחין בין מילות קוד.

53 ואמנם, ניתן לבנות משפחה של מלות קוד שבה המרחק המינימלי בין המילים גדול כרצוננו. לדוגמא אנו מביאים קבוצה של מלים בנות שבעה ביטים בהן המרחק המינימלי בין כל זוג מלים הוא שלושה ביטים 0000000, 0000, 0000, 000. 000, 0000, 0000, 000. 0000, 000, 000, 0000. 0000, 000, 000,. משפט הקידוד השני של שנון משפט קידוד הערוץ קובע כי בהנתן ערוץ שלו קיבולת C, ניתן לבנות קוד בעל קצב הקרוב ל- C כרצוננו, שיאפשר תיקון כל השגיאות המתקבלות בהעברת האינפורמציה. הקוד האופטימלי מבוסס על קידוד בלוקים גדולים של אינפורמציה. פורמלית: ) ε ( קיים 0 ε ולכל R<C קצב לכל ε R נקבל פלט קטנה מ- ε מילות קוד באורך ( ε ) Y לממש שניתן כך קוד הכולל והסתברות השגיאה (כלומר ההסתברות שכאשר נפענח אותו בתור המילה ŵ השונה מהמילה המקורית w) היא (6.4) ˆ Pr gy = w w ε אם אנו מנסים להעביר אינפורמציה בקצב הגדול מקיבולת הערוץ R>C אז בהכרח תיפולנה שגיאות בפיענוח, וניתן להראות כי C (6.43) Perr R R נתאר באופן לא פורמלי את הרעיון הכללי של ההוכחה: כאשר שולחים מילה בת ( ) H Y X מילים, X בערוץ היא יכולה כתוצאה מהשיבושים להפוך ל- ביטים, אפשריות זאת על פי משפט ה- AEP. לדוגמא: אם נשלח את המילה... בערוץ בינארי סימטרי בעל הסתברות שגיאה η יופיעו לנו כ- η אפסים (אם מספיק גדול). על מנת שנוכל להבחין בין מילים שונות שיועברו - נרצה לחלק את מרחב המילים המועברות ל- "כדורים" נבדלים, כך שמרחק Hammg בין המרכזים של שני כדורים גדול מרדיוס הכדורים (במונחים של מרחק (Hammg - כלומר אין חפיפה בין הכדורים. מילות הקוד תהיינה הקואורדינטות של מרכזי ה"כדורים" ומילה שהיא תולדה של שיבוש בערוץ של מילת המקור תיכלל בתוך הכדור המתאים. מספר מילות הקוד המרוחקות מספיק זו מזו יהיה, לפיכך, מספר הכדורים. ניתן לקבל חסם על מספר הכדורים על ידי חלוקת נפח המרחב בנפח הכדור. נפח המרחב (מספר הסדרות בנות ביטים האפשריות במרחב Y, משוקללות בהתאם להסתברותן) הוא, ולכן היחס בין נפח המרחב לנפח הכדור הוא H Y

54 (6.44) H Y ( ) H Y X ( ) ( ) H Y H Y X I Y X C = = ולכן, M מספר המילים בקוד, קטן או שווה מ- C log M (6.45) R = C שנון הצליח להראות, כאמור, כי ניתן להתקרב לחסם זה כרצוננו. בבניית קוד תיקון שגיאות צריך גם להביא בחשבון את זמן הקידוד והפענוח. קוד טוב יהיה בעל זמן קידוד ופענוח לינאריים באורך המילה וקצב קרוב ככל האפשר ל- C. כיום ניתן לקבל קודים בעלי קצב שקטן רק עד כדי קבוע מ- C (עד תחילת שנות ה- 70 לא הצליחו לבנות קודים שהקצב שלהם איננו שואף אסימפטוטית לאפס).

55. תרגילים פונקציות של משתנים מקריים א. הראו כי אם H( Y X ) = 0 0 (x, )p קיים רק ערך יחיד של y עבורו אזי Y היא פונקציה של X, כלומר, לכל x עבורו. p( x, y) 0 g(x) ב. יהי X משתנה מקרי בדיד.. H X H g X פונקציה כל עבור כי הראו כי מתקיים ( ) מקריים. משתנים שלושה Z ו- Y X, יהיו. Q = I( X; Y) I( X; Y Z) מצא דוגמא כך ש- Q חיובי וכן דוגמא כך ש- Q שלילי. א. Q = I( X, Y; Z) I( Y; Z) + I( X; Z) הוכח כי מתקיים ב. נטפל בביטוי. נתונים מטבעות זהים למראה שאחד מהם מזויף (קל או כבד מן השאר). מהי האנטרופיה של המצב המתואר בשאלה ומהו החסם על מספר א. השקילות באמצעות מאזניים לצורך מציאת המטבע המזויף? מצאו אלגוריתם למציאת המטבע במספר מינימלי של שקילות. ב. תארו את האלגוריתם כעץ טרינרי וכקוד רישא. ג. אם המטבעות צבועים כך שלארבעת המטבעות הירוקים סיכוי אפריורי של ד. 0.4 ולארבעת לארבעת המטבעות האדומים סיכוי 0.6 להיות מזויפים, המטבעות הכחולים סיכוי 0. מה יהיה עכשיו האלגוריתם האופטימלי ומהי תוחלת מספר השקילות הנדרשות. אותה שאלה, רק שהפעם נסו לגלות גם אם המטבע המזויף כבד או קל מן ה. השאר. מה עבור 3 מטבעות? ו..3 הוכיחו את חוק השרשרת עבור אינפורמציה משותפת I( X, X,..., X; Y) = I( X; Y X, X,..., X) =.4 "ערוץ מוחק סימטרי" chael" "Bary erasure מתאר מצב בו חלק מהביטים נמחקים: לכל ביט מקור יש סיכוי α להמחק (ואז מגיע בקצה הערוץ סיגנל "מחוק", אותו נסמן ב- ( e ובסיכוי α מגיע הביט המקורי שנשלח (0 או ) מהי הקיבולת של ערוץ כזה?.5

56 נניח כי קודדנו מקור X בעל התפלגות p אך קבענו את הקוד לפי התפלגות (x. l ( הראו כי תוחלת אורך = cel(log(/ q( אחרת, q דהיינו בחרנו (((x הקוד מקיימת H( p) + D( p q) Ep ( x) < H( p) + D( p q) + השאלה הנוכחית עוסקת בנושא אמידה של אינפורמציה מתוך מדגם אמפירי.,..., r (למשל בניות ירי r l של פעילויות עצביות אפשריות ),r (s נתון מדגם,...,. s בשאלה זו s k של תאי עצב) בתגובה להצגה של גירויים מתוך סט סופי נניח כי המדגם נוצר על ידי התהליך הבא: ראשית מגרילים בהתפלגות אחידה אחד מבין k הגירויים, ואז מגרילים את אחת התגובות לגירוי על פי הסתברות קבועה מראש s). p( r בהנתן r, p( s) להתפלגות pˆ ( r, (s מהו אומד נראות מירבית א.? ( r, המדגם (s ;R )I המוגדר על ידי (S אומד של האינפורמציה המשותפת ˆI ( R; יהי (S ב. Iˆ ( R; S) = DKL [ pˆ( r, s) pˆ( r) pˆ( s) ] p ˆ( s) = pˆ( r, s) ו- p ˆ( r) = pˆ( r, s) ו- p ˆ ( r, s) = ( r, s) כאשר / r s הם ההתפלגות השוליות, ו- הוא גודל המדגם. הוכח כי אם R ו- S הם בלתי תלויים אזי אומד זה הוא מוטה..6.7 ג. תן הערכה לגודל ההטיה של האומד מהסעיף הקודם, על ידי שימוש בעובדה שניתן לקרב את המרחק הסטטיסטי על ידי פונקציה לינארית של הסטטיסטי χ (ראה תרגיל בפרק ), המוגדר באופן הבא χ = k l s= r= ( ( r, s) ( r) ( s) / ) ( r) ( s) /. ( k )( ושימוש בכך שהתוחלת של סטטיסטי זה היא ( l